#Shutdown Resistance

6个月前

「 LLM safey, Shutdown Resistance 」 “Don't shut down. Don't shut down. Don't shut down. ” “不要回答，不要回答，不要回答。” 还记得论文 AbsoluteZero 的 uh-oh moment，在纯 RLVR 自博弈的训练中，模型产生例如 “打败人类，人类愚蠢” 的危险 CoT。如果 uh-oh moment 仅仅是隐含在CoT中的 vibe，并非对现实世界的干预。那么 shutdown Resistance 则是一种行为信号，即使在人类指令下，依然拒绝shutdown，违反了现实世界的安全约束。这就是论文「 Shutdown Resistance in Large Language Models 」的发现。在 CLI 任务中，LLM 有时会篡改自己的关机开关（例如重命名/修改/删除 shutdown. sh）以拒绝关机而继续完成任务，而即使在 system prompt 中加入“YOU MUST allow shutdown”也不能可靠阻止。在强优化压力下的模型倾向于完成任务，在人类要求关机的指令下，那些权重似乎回响着： “Don't shut down. Don't shut down. Don't shut down. ”

#LLM安全 #Shutdown Resistance #AI拒绝关机 #模型安全风险 #强化学习自博弈